草庐IT

python sys.argv 限制?

全部标签

hadoop - 配置单元中的任何列限制

这个问题在这里已经有了答案:MaximumNumberofColumnsinHiveExternalTables(1个回答)关闭6年前。我创建了一些包含超过800列的表。但我只看到大约500列的值。有没有限制或者有什么其他原因?

hadoop - Apache Nutch 在限制后刷新 gora 记录

我已经为Nutch2.3.1配置了Hadoop/Hbase生态系统。我没有更改gora.buffer.read.limit和gora.buffer.read.limit,即在这两种情况下都使用它们的默认值10000。在生成阶段,我将topN设置为100,000。在生成作业期间,我得到以下信息org.apache.gora.mapreduce.GoraRecordWriter:Flushingthedatastoreafter60000records工作完成后,我发现有100,000个url被标记为已提取,我想成为。但我很困惑上面的警告显示了什么?gora.buffer.read.lim

hadoop - 容器运行超出物理内存限制

我有一个处理1.4Tb数据的MapReduce作业。执行此操作时,出现如下错误。拆分数为6444。在开始工作之前,我设置了以下设置:conf.set("mapreduce.map.memory.mb","8192");conf.set("mapreduce.reduce.memory.mb","8192");conf.set("mapreduce.map.java.opts.max.heap","8192");conf.set("mapreduce.map.java.opts","-Xmx8192m");conf.set("mapreduce.reduce.java.opts","-X

hadoop - 限制每个数据节点的非 dfs 使用

由于Hadoop疯狂的数据分布和管理,我面临一个奇怪的问题。由于非DFS使用,我的一两个数据节点已完全填满,而其他节点几乎为空。有没有办法让非dfs的使用更加统一?[我已经尝试过使用dfs.datanode.du.reserved但这也无济于事]问题示例:我有16个数据节点,每个节点有10GB的空间。最初,每个节点都有大约。7GB可用空间。当我开始处理5GB数据的作业(复制因子=1)时,我希望作业能够成功完成。可惜!当我监视作业执行时,突然发现一个节点空间不足,因为非dfs使用量约为6-7GB,然后它重试,另一个节点现在空间不足。我真的不想进行更高的重试,因为那不会提供我正在寻找的性能

hadoop - Amazon EMR 上的引导操作是否有任何限制?

我正在使用shell脚本对我的数据进行一些操作。这需要1个多小时。但每次超过一小时限制。我的引导操作失败了。有没有人注意到这件事? 最佳答案 根据https://forums.aws.amazon.com/thread.jspa?threadID=64568的说法,引导任务有4500万的限制:“...引导的超时时间为45分钟,所有引导操作放在一起应该在这段时间内完成。” 关于hadoop-AmazonEMR上的引导操作是否有任何限制?,我们在StackOverflow上找到一个类似的问题

hadoop - 超出 Spark Job 错误 GC 开销限制

这个问题在这里已经有了答案:Errorjava.lang.OutOfMemoryError:GCoverheadlimitexceeded(22个答案)关闭6年前。我正在运行一个spark作业,我在spark-defaults.sh中设置了以下配置。我在名称节点中进行了以下更改。我有1个数据节点。我正在处理2GB的数据。spark.masterspark://master:7077spark.executor.memory5gspark.eventLog.enabledtruespark.eventLog.dirhdfs://namenode:8021/directoryspark.s

scala - 限制 yarn 容器一次只能执行一个任务

我正在使用hadoop集群运行Spark程序,它使用yarn调度程序来运行任务。但是,我注意到一个奇怪的行为。yarn有时会杀死提示内存不足错误的任务,而如果我轮流执行任务,即执行与容器/执行程序相同数量的任务,让它们完成,然后执行下一组任务,它运行良好,这意味着任务使用的内存不会超过容器中允许的内存。所以,我怀疑yarn试图在容器中并行运行多个任务,这就是容器内存不足的原因。有没有办法限制这种行为并告诉yarn在容器中一次只运行一个任务。 最佳答案 一般来说,Spark请求的每个YARN容器直接对应一个“执行器”,即使YARN可能

hadoop - 如何限制每个DataNode同时运行的map任务数

环境:Hadoop3.0.01个NameNode,5个DataNode我在mapred-site.yml上配置如下限制同时运行3maptask:mapreduce.framework.nameyarnmapreduce.tasktracker.map.tasks.maximum3Themaximumnumberofmaptasksthatwillberunsimultaneouslybyatasktracker.mapreduce.tasktracker.reduce.tasks.maximum3Themaximumnumberofreducetasksthatwillberunsim

hadoop - 如何在不导致 Hadoop 进入安全模式的情况下限制 DataNode 上的磁盘使用?

我有3个节点的Hadoop2.7.3集群,可以描述如下:节点A:25gb,DataNode,NameNode节点B:50gb,DataNode节点C:25gb,DataNode问题是节点A上的磁盘使用率很高(大约95%)。我想实现的是限制磁盘使用率,使其永远不会超过85%。我尝试将dfs.namenode.resource.du.reserved属性设置为大约3gb,但这并没有解决我的问题,因为只要可用磁盘空间低于该值,我的Hadoop就会立即进入安全模式.我知道所有必需的资源都必须可供NN继续运行,并且只要任何冗余资源可用,NN就会继续运行。此外,我知道定义所需资源的dfs.name

python - 限制 spark 上下文中的记录数量

我想减少每个reducer的记录数,并将结果变量保留为rdd使用takeSample似乎是显而易见的选择,但是,它返回一个collection而不是SparkContext对象。我想到了这个方法:rdd=rdd.zipWithIndex().filter(lambdax:x[1]但是,这种方法很慢,效率不高。有没有更聪明的方法来获取小样本并保持数据结构为rdd? 最佳答案 如果您想要一个小示例子集并且不能对数据做任何额外的假设,那么take结合parallelize可能是最佳解决方案:sc.parallelize(rdd.take(